现代领先的物体探测器是从深层CNN的骨干分类器网络重新批准的两阶段或一级网络。YOLOV3是一种这样的非常熟知的最新状态单次检测器,其采用输入图像并将其划分为相等大小的网格矩阵。具有物体中心的网格单元是负责检测特定对象的电池。本文介绍了一种新的数学方法,为准确紧密绑定函数预测分配每个对象的多个网格。我们还提出了一个有效的离线拷贝粘贴数据增强,用于对象检测。我们提出的方法显着优于一些现有的对象探测器,具有进一步更好的性能的前景。
translated by 谷歌翻译
我们考虑了$ d $维图像的新拓扑效率化,该图像通过在计算持久性之前与各种过滤器进行卷积。将卷积滤波器视为图像中的图案,结果卷积的持久图描述了图案在整个图像中分布的方式。我们称之为卷积持久性的管道扩展了拓扑结合图像数据中模式的能力。的确,我们证明(通常说)对于任何两个图像,人们都可以找到某些过滤器,它们会为其产生不同的持久图,以便给定图像的所有可能的卷积持久性图的收集是一个不变的不变性。通过表现出卷积的持久性是另一种拓扑不变的持续性副学变换的特殊情况,这证明了这一点。卷积持久性的其他优势是提高噪声的稳定性和鲁棒性,对数据依赖性矢量化的更大灵活性以及对具有较大步幅向量的卷积的计算复杂性降低。此外,我们还有一套实验表明,即使人们使用随机过滤器并通过仅记录其总持久性,卷积大大提高了持久性的预测能力,即使一个人使用随机过滤器并将结果图进行量化。
translated by 谷歌翻译
主动扬声器检测在人机相互作用中起着至关重要的作用。最近,出现了一些端到端的视听框架。但是,这些模型的推理时间没有被探索,并且由于其复杂性和较大的输入大小而不适用于实时应用。此外,他们探索了类似的功能提取策略,该策略在音频和视觉输入中采用了Convnet。这项工作提出了一种新型的两流端到端框架融合,通过VGG-M从图像中提取的特征与原始MEL频率Cepstrum系数从音频波形提取。该网络在每个流上附有两个BigRu层,以处理融合之前每个流的时间动态。融合后,将一个BigRU层附着在建模联合时间动力学上。 AVA-ACTIVESPEAKER数据集的实验结果表明,我们的新功能提取策略对嘈杂信号的鲁棒性和推理时间比在这两种模式上使用Convnet的模型更好。提出的模型预测44.41 ms之内,足够快地用于实时应用程序。我们表现​​最佳的模型获得了88.929%的精度,与最先进的工作相同。
translated by 谷歌翻译
We introduce an optimal transport-based model for learning a metric tensor from cross-sectional samples of evolving probability measures on a common Riemannian manifold. We neurally parametrize the metric as a spatially-varying matrix field and efficiently optimize our model's objective using a simple alternating scheme. Using this learned metric, we can nonlinearly interpolate between probability measures and compute geodesics on the manifold. We show that metrics learned using our method improve the quality of trajectory inference on scRNA and bird migration data at the cost of little additional cross-sectional data.
translated by 谷歌翻译
从模型分析和机器学习中的比较到医疗数据集集合中的趋势发现,需要有效地比较和表示具有未知字段的数据集跨越各个字段。我们使用歧管学习来比较不同数据集的固有几何结构,通过比较其扩散操作员,对称阳性定义(SPD)矩阵,这些矩阵与连续的拉普拉斯 - 贝特拉米操作员与离散样品的近似相关。现有方法通常假设已知的数据对齐,并以点数的方式比较此类运算符。取而代之的是,我们利用SPD矩阵的Riemannian几何形状比较了这些操作员并根据log-euclidean Metric的下限定义了新的理论动机距离。我们的框架有助于比较具有不同大小,功能数量和测量方式的数据集中表达的数据歧管的比较。我们的日志 - 欧几里德签名(LES)距离恢复了有意义的结构差异,在各种应用领域的表现都优于竞争方法。
translated by 谷歌翻译
大部分计算机生成的动画是通过用钻机来操纵网格创建的。尽管这种方法可以很好地对动物(例如动物)进行动画化的态度,但它的灵活性有限,可以使结构较低的自由形式对象进行动画化。我们介绍了WaseSplines,这是一种基于连续标准化流量和最佳运输的最新进展,用于对非结构化密度进行动画化的新型推理方法。关键思想是训练代表密钥帧之间运动的神经参数化速度场。然后,通过通过速度字段推进密钥帧来计算轨迹。我们解决了另一个Wasserstein Barycenter插值问题,以确保严格遵守关键框架。我们的工具可以通过各种基于PDE的正规化器来对轨迹进行风格化轨迹,从而创造出不同的视觉效果。我们在各种关键框架插值问题上演示了我们的工具,以制作时间连接动画而无需嵌入或索具。
translated by 谷歌翻译
最近的技术在将表面重建为由深神经网络参数化的学习函数(如签名距离字段)的级别集。但是,许多这些方法仅限于闭合表面,并且无法重建具有边界曲线的形状。我们提出了一种混合形状表示,其将明确的边界曲线与隐式学习内部结合起来。使用从几何测量理论中的机器,我们使用深网络参数化电流,并使用随机梯度下降来解决最小的表面问题。通过根据目标几何形状修改度量,例如,从网格或点云,我们可以使用这种方法来表示任意曲面,学习隐式定义的具有明确定义的边界曲线的形状。我们进一步展示了由边界曲线和潜在码共同参数化的形状的学习系列。
translated by 谷歌翻译
我们提出了一种基于体积的基于网格的算法,用于参数化胎盘到扁平模板,以实现局部解剖结构和功能的有效可视化。 MRI显示潜在作为研究工具,因为它提供与胎盘功能直接相关的信号。然而,由于胎盘体内形状的弯曲和高度变化,解释和可视化这些图像是困难的。我们通过绘制胎盘来解决解释挑战,以便它类似于熟悉的离体形状。我们将参数化作为优化问题,用于将体积网格表示的胎盘形状映射到扁平模板。我们采用对称的Dirichlet Energy来控制整个体积的局部变形。在梯度下降优化期间,映射中的局部注射是由约束的线路搜索强制执行的。我们使用从大胆的MRI图像中提取的111个胎盘形状的研究研究验证了我们的方法。我们的映射在匹配模板时实现了子体素准确性,同时保持整个音量的低失真。我们展示了胎盘的扁平化程度如何改善解剖学和功能的可视化。我们的代码在https://github.com/mabulnaga/plentaa-flatteny自由提供。
translated by 谷歌翻译
Point cloud registration is a key problem for computer vision applied to robotics, medical imaging, and other applications. This problem involves finding a rigid transformation from one point cloud into another so that they align. Iterative Closest Point (ICP) and its variants provide simple and easily-implemented iterative methods for this task, but these algorithms can converge to spurious local optima.To address local optima and other difficulties in the ICP pipeline, we propose a learning-based method, titled Deep Closest Point (DCP), inspired by recent techniques in computer vision and natural language processing. Our model consists of three parts: a point cloud embedding network, an attention-based module combined with a pointer generation layer, to approximate combinatorial matching, and a differentiable singular value decomposition (SVD) layer to extract the final rigid transformation. We train our model end-to-end on the ModelNet40 dataset and show in several settings that it performs better than ICP, its variants (e.g., Go-ICP, FGR), and the recently-proposed learning-based method PointNetLK. Beyond providing a state-of-the-art registration technique, we evaluate the suitability of our learned features transferred to unseen objects. We also provide preliminary analysis of our learned model to help understand whether domain-specific and/or global features facilitate rigid registration.
translated by 谷歌翻译